Projet M2 IM - Introduction aux Topic Models
نویسنده
چکیده
Parmi les différents types de données, on trouve notamment une immense quantité de textes provenant d’Internet : on voudrait être capable d’analyser ces textes pour en tirer, sous forme condensée, l’information la plus pertinente possible. C’est dans ce cadre qu’ont été introduits les Topic Models : il s’agit de comprendre la structure sous-jacente d’un corpus de textes en dégageant des thèmes, ou topics, supposés présents dans le corpus mais non connus à l’avance. Au départ empiriques, puis basés sur une décomposition matricielle, les Topic Models ont connu une progression majeure lorsqu’on a pu leur donner une base entièrement probabiliste [5]. Ce sont ces modèles probabilistes qui nous intéressent ici : les thèmes sont alors considérés comme des variables aléatoires latentes (i.e. non observées) qui permettent de générer un corpus de textes. Leur force réside dans le fait qu’ils peuvent fournir des informations bien plus fines qu’un simple résumé du corpus, par exemple en prenant en compte la polysémie, c’est-à-dire la possibilité pour un mot d’appartenir à plusieurs thèmes.
منابع مشابه
L'aide aux personnes en situation de handicap au cœur d'une recherche en informatique. Des outils d'interaction homme-machine au compagnon artificiel
......................................................................................................................................... 7 INTRODUCTION .................................................................................................................................. 9 – CHAPITRE 1 – AIDE TECHNIQUE DANS LE CADRE DE LA COMMUNICATION HOMME/MACHINE . 19 INTERACTION HOMME-MACHINE ET...
متن کاملSoutenir la coopération par l'indexation semi-automatique d'annotations
Cet article décrit un outil permettant de soutenir des activités coopératives distribuées en conception mécanique à l’aide d’annotations. La conception assistée par ordinateur donne lieu à l’utilisation et à la création d’un grand nombre de documents et de commentaires liés aux documents qu’il faut classifier finement pour permettre leur réutilisation tout au long du projet. L’article se focali...
متن کاملVers un logiciel multilingue et gratuit pour l’aide aux personnes handicapées de la parole : HOOK (une interface du projet W)
Le but du projet W, lancé en 1999 par le laboratoire TCTS de la Faculté Polytechnique de Mons est de permettre aux personnes handicapées de la parole de profiter des développements récents en matière de synthèse vocale. C’est dans le cadre de ce projet qu’a été réalisé HOOK, un logiciel de désabréviation capturant toute frappe au clavier sous MS-Windows, et proposant automatiquement et en temps...
متن کاملTraduction automatisée fondée sur le dialogue et documents auto-explicatifs : bilan du projet LIDIA
RÉSUMÉ. Nous dressons un bilan des travaux que nous avons conduits dans le cadre du projet LIDIA de traduction automatisée fondée sur le dialogue pour auteur monolingue. En mettant en œuvre une architecture linguistique à transfert multiniveau, nous avons proposé et évalué une méthodologie de production de questions de désambiguïsation interactive. Les modules mis en œuvre coopèrent au sein d’u...
متن کاملL'orthoglide : une machine-outil rapide d'architecture parallèle isotrope
Cet article présente le projet “Orthoglide” de l’IRCCyN. Ce projet a pour but la réalisation d’un prototype de machine-outil rapide à trois degrés de translation. La particularité de cette machine est une architecture cinématique parallèle optimisée pour obtenir une volume de travail compact et où les performances sont homogènes. Pour cela, le critère principal de conception qui a été utilisé e...
متن کامل